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摘 要 场景 即 我 们 生活 于 其 中 的 真实 环境 ,社会 场景 是 其 重要 组 成 部 分 。 在 社会 场景 知觉 的 研究 中 ,动作 
意图 的 识别 既 受 场景 背景 信息 的 影响 ,也 与 动作 的 客观 对 象 有 关 。 因 此 ， 研 究 者 可 以 根据 背景 -刺激 物 、 刺 激 
物 -刺激 物 关系 ， 探 索 动 作 识别 的 影响 机 制 ; 另 一 方面 ,也 可 以 根据 场景 的 语义 约束 和 物理 限制 , 依据 合理 动 
作 原 则 及 其 伴随 的 生理 指标 检测 并 识别 动作 意图 。 在 机 器 视觉 研究 领域 , 计算 机 识别 模型 为 社会 场景 中 动作 
意图 的 检测 和 识别 提供 了 新 的 视角 。 在 未 来 的 研究 中 ,研究 者 需要 考虑 真实 场景 中 动作 意图 识别 能 力 的 发 展 、 
动作 意图 识别 的 个 体 差 异 和 文化 差异 等 问题 。 
Kei ”社会 场景 ; 动作 意图 ; 场景 知觉 计算 机 识别 模型 
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T 1 引言 研究 者 认为 ,真实 世界 中 的 场景 知觉 包括 对 视觉 


输入 的 感觉 过 程 和 认 知 过 程 ， 比 如 对 场景 梗概 、 
空间 布局 与 规模 等 信息 的 快速 获取 ,以 及 场景 中 
的 距离 知觉 、 有 意义 对 象 的 视觉 搜索 、 场 景 的 表 
征 及 注意 分 配 等 (Henderson, 2005)。 社会 场景 (Social 
scene)， 即 有 人 存在 的 场景 ， 是 场景 的 主要 类 型 之 
— (Cerf, Harel, Einhiuser, & Koch, 2007)。 在 社会 
场景 知觉 的 研究 中 ,对 人 与 人 之 间 互 动 关系 的 探 


动作 意图 既 可 以 指 动作 的 立即 结果 ,也 可 以 
指导 致 动作 的 高 级 动机 (Catmur, 2015)。 动 作 意 图 
的 理解 对 我 们 的 生活 至 关 重 要 。 对 婴儿 而 言 , 动 
作 不 仅 是 其 获得 感性 认识 的 手段 ， 也 是 与 他 人 进 
行 社会 互动 的 主要 方式 ( 陈 亚 萍 ， 李晓东 ,2013); 
对 成 人 而 言 ， 正 确 理解 动作 意图 是 个 体 在 社会 生 


活 中 与 他 人 进行 有 效 交 流 的 基础 (den Ouden, Frith, 4 
索 , 特别 是 对 人 与 人 之 间 行 为 互动 背后 隐 含 的 心 
Frith, & Blakemore, 2005; Satpute et al., 2005). R, 特别 是 对 人 与 人 之 间 行为 互动 背后 隐 合 的 心 


此 ,动作 意图 识别 已 经 成 为 计算 机 科学 和 心理 学 SE BS SRNR AE ENS: ET 
领 直 内 的 主要 研究 同 题 之 (Catinur 2015; Yog 声 景 知觉 的 动作 意图 研究 ,需要 注意 场景 的 背景 
pee 2010) > , (background) 及 其 包含 的 物体 (objects) 两 个 部 分 。 
人 说 对 动作 意图 的 理解 不 仅 依赖 于 动作 本 。 场景 中 的 背景 是 指 宽广 的 、 吏 目的 表面 和 结构 ; 
ic cate 场景 中 的 物体 则 是 指 比 例 较 小 的 不 连续 物体 ( 王 

身 ; 也 有 赖 于 动作 所 发 生 的 真实 生活 场景 。 场景 ” i ( 
(scene) ERRER PKA PSS 209) WAKAR, BRT 
入 成 的 、 具 有 语义 一 至 性 的 视觉 图 景 (Lordorson RORI, DAA MIOR ft 9A 
mai npn Lage 依赖 或 共 现 关系 ， 从 而 构成 了 刺激 物 -刺激 物 关 
& Hollingworth, 1999; HÆ, RER, ABA, A .刺激 物 -背景 关系 ， 而 其 都 对 动作 意图 识别 有 重 
2008). 场景 知觉 关注 人 如 何 知觉 和 加 工 复杂 的 真 全 人 


影响 (Bonchek-Dokow & Kaminka, 2014; Yao & 
实 环境 信息 ( 王 福 兴 ， 田 宏 杰 ,， 申 继 亮 , 2009)。 有 ae 
Fei-Fei, 2010), 
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卉 省 体育 卫生 与 健康 教育 美育 国防 教育 专项 任务 项 ) 许多 研究 者 已 经 从 视觉 加 工 的 
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目 (项 目 编号 ，77) 支 持 度 研 究 动作 意图 (Bonchek-Dokow & Kaminka, 2014; 
通信 作者 : 康 廷 虎 , E-mail: kangyan313@126.com Sartori, Bechio, & Castiello, 2011)。 本 文 主要 对 视 
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觉 信息 加 工 的 研究 成 果 进 行 梳理 与 分 析 ， 并 基 
社会 场景 知觉 的 研究 , 综述 动作 意图 检测 、 意 图 
分 类 和 意图 推论 等 动作 意图 识别 的 相关 研究 进展 
(Park, Lee, Lee, Chang, & Kwak, 2016)。 


2 场景 中 的 动作 意图 研究 


在 社会 场景 知觉 的 研究 中 ,动作 意图 是 其 中 
的 重要 内 容 。 对 婴儿 而 言 ， 各 种 运动 、 动 作 的 发 
展 是 其 活动 发 展 的 直接 前 提 ， 也 是 其 心理 发 展 的 


程 中 动作 作为 由 在 实现 某 种 隐 含 意图 的 中 介 存 
在 。 在 这 一 概念 中 有 三 个 关键 词 : 动作 (action)、 
意图 (purpose)、 最 终 状态 (final state)。 这 三 个 关键 
词 将 意图 性 动作 与 其 他 术语 进行 区 分 。 其 中 ,“ 动 
作 ” 表 示 “ 意 图 性 动作 ”导致 了 客观 世界 的 某 种 变 
化 ， 而 识别 意图 时 又 可 以 将 “动作 ”作为 中 介 ;“ 最 
终 状 态 ” 指 的 是 动作 序列 导致 了 怎样 的 最 终结 果 
状态 ;“ 意 图 ”这 一 术语 与 期 望 的 最 终 状 态 相 关 。 

在 实际 识别 动作 意图 的 过 程 中 , 往往 需要 使 


外 在 表现 ( 李 红 , 何 硕 ，2003)。 动 作 不 仅 是 婴儿 获 
得 感性 认识 的 手段 ， 也 是 其 与 他 人 进行 社会 互动 
的 主要 方式 , 尤其 是 对 于 前 语言 阶段 的 婴儿 ， oh 
作 理 解 可 以 看 作 是 一 种 前 心理 理论 ， 对 促进 婴儿 
其 他 社会 认 知 能 力 的 发 展 具有 重要 的 意义 ( 陈 亚 
PE, 李晓东, 2013)。 因此, 理解 动作 意图 对 个 体 心 理 
发 展 以 及 人 际 交 往 与 沟通 都 具有 重要 意义 (Cacippo， 
Berntson, & Decety, 2010)。 尽 管 人 们 所 看 到 的 动 
作 流 是 极其 复杂 的 , 但 是 从 婴儿 期 开始 , 个 体 就 
可 以 轻松 地 处 理 意图 相关 的 动作 。 人 们 自发 地 根 
据 意图 边界 对 动作 进行 分 段 ， 得 到 关于 行为 表现 
者 意向 性 的 系统 判断 ， 并 利用 对 行为 表现 者 特定 


用 可 直接 得 到 的 各 类 信息 ， 以 此 推论 行为 者 动作 
的 隐 含 意图 ， 进 而 帮助 人 们 识别 动作 的 意图 。 基 
于 这 一 思路 , 研究 者 试图 利用 得 到 的 生物 信息 进行 
推论 。Choi (2013) 设 计 了 情境 意识 系统 (situational 
awareness system) 用 以 检测 图 像 中 异常 行为 的 意 
图 。 除 此 之 外 , 还 有 研究 认为 “功能 可 见 性 ”在 动作 
意图 预测 中 扮演 着 重要 角色 (Bonchek-Dokow & 
Kaminka，2014)。 这 一 概念 首先 由 Gibson (1977) 
引入 ,并 认为 一 个 对 象 的 属性 和 它 提 供 的 功能 相 
对 应 , 一 个 物体 或 环境 会 暗示 其 物理 属性 的 所 有 
可 能 性 。 如 ， 办公室 的 座 椅 表 明 其 可 以 用 来 坐 着 
休息 ; 围巾 的 保温 属性 说 明 其 可 以 用 来 保暖， 其 


al 


意图 内 涵 的 判断 指导 自己 的 观察 、 推 论 和 后 续 动 
作 (Baldwin & Baird, 2001), 这 表明 人 们 从 很 小 的 时 
修 就 可 以 对 行为 意图 进行 识别 。 另 外 ， 从 进化 的 角 
度 来 看 , 在 危险 场景 中 准确 识别 对 自己 具有 威胁 的 
行为 对 其 生存 及 发 展 具 有 重要 的 适应 性 作用 。 因 
此 ,对 动作 隐 含 的 意图 进行 研究 就 显得 尤为 重要 。 

Catmur (2015) 认 为 ， 动作 意图 既 可 以 指 动作 
的 立即 结果 ,也 可 以 指导 致 动作 的 高 级 动机 。 对 
动作 意图 的 识别 可 以 帮助 人 们 预期 他 人 行为 的 结 
AH, 也 可 以 帮助 人 们 理解 动作 发 出 者 的 意愿 和 目 
标 。Sukthankar, Geib, Bui, Pynadath 和 Goldman 
(2014) 认 为 动作 意图 识别 是 一 种 认 知 他 人 计划 、 目 


译 重 属性 暗示 其 可 以 被 折 释 以 用 来 靠 枕 。 每 个 动 
作 序 列 都 有 其 引起 的 状态 结果 ,每 一 个 提取 的 状 
态 结果 也 有 诱导 其 产生 的 动作 序列 ,这 使 人 们 在 
谈 及 功能 可 见 性 时 ， 就 能 够 预期 或 利用 可 能 的 目 
标 状 态 。 也 就 是 说 ， 当 试图 识别 隐 含 于 动作 序列 
之 中 的 意图 时 ， 人 们 可 以 从 可 能 的 目标 状态 出 发 ， 
利用 环境 中 可 得 到 的 功能 可 见 性 而 实现 其 目的 。 
也 有 研究 试图 对 动作 意图 进行 分 类 。 比 如 , 基 
于 真实 场景 的 特点 , 合作 情境 中 理解 的 同伴 意图 对 
于 将 其 动作 与 共同 目标 匹配 是 必 不 可 少 的 (Sebanz, 
Bekkering, & Knoblich, 2006); 而 理解 在 冲突 情境 
中 对 手 意图 对 于 免 遭 他 人 行为 对 自己 的 伤害 也 是 


的 的 能 力 , 使 得 人 类 可 以 推论 行为 表现 者 正在 做 
什么 、 为 何 这 样 做 以 及 接 下 来 会 怎么 做 。 主 体 可 
以 凭借 对 动作 意图 的 识别 ， 获 得 对 他 人 目标 的 理 
解 ， 并 可 以 预测 其 后 期 动作 及 运动 轨迹 (Bonchek- 
Dokow & Kaminka, 2014)。 需要 强调 的 是 , 研究 者 
往往 关注 的 并 不 是 所 有 的 动作 ,而 仅仅 是 可 以 作 
为 意图 识别 中 介 的 动作 ， 即 意图 性 动作 。Bonchek- 
Dokow 和 Kaminka (2014) 认 为 “意图 性 动作 ”是 指 
可 能 带 来 某 种 期 望 的 最 终 状态 的 动作 ,在 这 一 过 


同样 重要 的 (Ruys & Aarts, 2010)。 与 之 不 同 的 是 ， 
男 有 研究 者 从 意图 本 身 出 发 ,， 将 社会 意图 分 为 合 
作 意 图 和 竞争 意图 。 合 作 意 图 是 与 同伴 合作 共同 
完成 某 个 任务 ， 而 竞争 意图 的 目标 则 是 与 对 手 竞 
争 以 率先 完成 某 个 任务 (Sartori et al., 2011)。 前 者 
指向 合作 行为 ， 而 后 者 指向 竞争 行为 。 在 动作 的 
具体 表现 特征 方面 ， 竞争 意图 可 能 由 于 其 竞技 性 
质 而 导致 其 所 引导 的 动作 在 速度 上 与 合作 意图 所 
引导 的 动作 有 所 区 别 。 
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3 ”语义 关系 与 动作 意图 研究 


动作 意图 研究 与 语义 的 获得 具有 密切 的 联 
Z “i X (semantics) KV Fath SA IB, i 
今 为 止 仍 与 德语 动词 “meinen”* 相 关 ， 而 这 个 词汇 
指 的 是 思考 (think) 或 意向 (intend), 在 这 个 意义 上 
动作 意图 是 与 语义 有 关 的 。 语 义 是 指 消息 发 出 者 
与 接受 者 对 信息 意义 的 理解 ,以 及 通过 具体 背景 线 
索 做 出 的 推论 (Ziaeefard & Bergevin, 2015), 其 实质 
是 对 客观 刺激 对 象 及 其 相互 关系 的 理解 (Muehlhaus 
et al.，2014)， 而 动作 意图 研究 中 强调 对 象 不 可 独 
立 存在 ,在 这 一 点 上 , 语义 与 动作 意图 是 一 致 的 。 
根据 Henderson (2005) 对 场景 的 界定 ， 真实 场景 实 
际 上 是 包含 了 背景 和 具体 对 象 的 。 与 之 相似 的 是 ， 
对 动作 意图 的 识别 ， 要 依赖 于 动作 的 发 起 者 (人 )， 
以 及 动作 的 对 象 (可 能 是 人 ,也 可 能 是 非 人 的 其 他 
客观 刺激 )。 因 此 ， 从 背景 和 对 象 的 角度 考虑 ， 真 
实 场景 中 同时 包含 背景 和 物体 ,两 者 并 不 是 孤立 存 
在 的 ， 可 能 会 表现 出 背景 -刺激 物 关系 、 刺 激 物 - 刺 


觉 到 了 游泳 的 动作 特征 ， 人 们 也 不 会 得 到 “场景 
中 的 人 在 游泳 ”的 识别 结果 。 另 一 方面 ,对 场景 的 
识别 也 可 以 促进 对 包含 在 其 内 的 刺激 物 的 识别 。 
Henderson (2005) 的 研究 发 现 , 场景 背景 对 于 刺激 
信息 的 视觉 搜索 及 注意 分 配 具有 引导 性 作用 。 具 
体 而 言 , 场景 中 作为 背景 的 各 项 线索 会 影响 人 们 
对 动作 意图 的 理解 (Ziaeefard & Bergevin, 2015)。 
如 ,汽车 出 现在 停车 场 场景 中 和 出 现在 公路 场景 
会 诱导 人 们 对 驾驶 者 行为 意图 的 不 同 预期 。 如 
果 汽 车 出 现在 停车 场 内 ， 人 们 可 能 会 倾向 于 认为 
轰 驶 者 是 想 停车 ; 而 在 公路 场景 下 ， 人 们 更 可 能 
认为 驾驶 者 是 在 进行 行驶 操作 并 且 其 行为 指向 某 
一 目的 地 。 
此 外 ， 人 们 有 关 场 景 上 下 文 背景 的 序列 性 知 
识 ， 对 于 动作 意图 分 析 而 言 也 是 极其 重要 的 。 它 
可 以 作为 语义 信息 帮助 人 们 预测 动作 及 其 结果 
(Oliva & Torralba, 2007), 即 帮 助人 们 推断 动作 意 
图 。 如 , “将 某 物 从 箱 中 取出 ?和 “将 某 物 放 入 箱 中 ” 
这 两 个 动作 序列 具有 不 同 的 隐 含 意图 ,但 是 两 者 


激 物 关系 ,这 两 种 关系 对 动作 意图 的 觉察 与 识别 同 
样 具有 重要 意义 (Delaitre, Sivic, & Laptev, 2011)。 
3.1 背景 -刺激 物 关 系 对 动作 意图 识别 的 影响 
在 真实 的 场景 中 ,背景 和 刺激 物 之 间 可 能 存 
在 共 现 关系 ， 比 如 ,停车 场 作 为 背景 ,往往 是 与 
停放 的 车 辆 存在 于 同一 个 时 空 之 中 。 那 么 , 无 论 
是 对 场景 的 识别 ,还 是 对 场景 中 刺激 物 的 识别 ， 
都 可 能 会 受到 这 种 共 现 关系 的 影响 。 在 包含 人 的 
动作 的 社会 场景 中 ,同样 ， 也 会 因为 人 与 场景 背 
景 之 间 的 共 现 关系 ,而 使 场景 中 人 的 动作 的 识别 ， 
或 者 场景 的 识别 受到 背景 -刺激 物 关 系 的 影响 。 
Friedman (1979) 指 出 ， 人 们 对 场景 诊断 刺激 
的 优先 识别 ， 反 过 来 会 促进 场景 识别 。 比如 ， 人 们 
对 菜刀 的 优先 识别 ,可 能 会 促进 对 “厨房 ”场景 的 
识别 。 那么 , 在 社会 场景 中 ， 如 果 观 察 者 能 够 对 场 
景 中 某 个 人 的 动作 做 出 识别 , 是否 会 影响 对 动作 
对 象 以 及 整个 场景 的 识别 呢 ? 比如 ， 当 看 到 某 个 
人 的 投篮 动作 , 我 们 可 能 会 更 容易 判断 这 是 在 徐 
球场 ， 或 者 预测 防守 队员 的 位 置 及 其 动作 。 因 此 ， 
对 动作 意图 的 研究 , 需要 考虑 场景 与 刺激 对 象 的 
匹配 情况 。 而 且 ， 有 些 动作 可 能 只 在 特定 的 场景 
中 出 现 (Ziaeefard & Bergevin, 2015), 其 同样 有 可 
能 成 为 识别 某 一 种 社会 场景 的 诊断 刺激 。 一 般 而 
言 , 游泳 上 只 在 游泳 池 进 行 ,即使 在 其 他 环境 中 察 


都 具有 “ 手 抓 住 某 物 ” 这 一 动作 ， 此 时 , 在 区 分 并 
识别 这 两 种 不 同 的 隐 含 意图 时 ， 对 具体 动作 序列 
的 理解 就 显得 尤为 重要 。 
3.2 ”刺激 物 - 刺 激 物 关 系 对 动作 意图 识别 的 影响 
在 场景 中 识别 动作 的 隐 含 意图 时 ， 人 的 具体 
动作 可 能 是 与 操作 对 象 相 联系 的 ,不同 的 动作 与 
其 动作 目标 对 象 之 间 是 相互 联结 的 。 因 此 ， 识 别 
动作 的 隐 含 意图 时 ， 对 该 动作 涉及 的 关联 对 象 的 
识别 可 以 帮助 人 们 理解 动作 意图 。 比 如 ,在 行为 
者 动作 特征 不 变 的 情况 下 ， 如 果 该 动作 特征 出 现 
在 草坪 场景 中 ， 同 时 伴随 行为 者 出 现 的 对 象 为 足 
球 ， 人 们 倾向 于 推断 行为 者 的 动作 特征 是 为 了 跑 
足球 做 出 的 ; 然而 ， 如果 该 动作 发 生 在 羽毛 球场 
内 ， 伴随 出 现 的 对 象 为 羽毛 球 球 网 ， 人 们 可 能 做 
出 “行为 者 的 动作 意图 是 打 羽 毛 球 ”的 推论 。 
此 外 ， 人 的 身体 姿势 和 行为 对 象 可 以 作为 彼此 
交互 影响 的 刺激 信息 (Desai，Ramanan，& Fowlkes, 
2010; Delaitre et al., 2011)。 也 就 是 说 ， 对 于 其 中 一 
个 刺激 物 的 识别 可 以 促进 对 于 另外 一 个 刺激 物 的 
识别 。 比 如 , 在 板 球 运动 中 ， 如 果 没 有 察觉 到 板 球 ， 
很 难 对 行为 表现 者 正在 使 用 板 球 棒 进 行 防御 性 击 
球 的 动作 进行 精准 判断 ; 同样 的 ， 如 果 没 有 识别 
到 行为 表现 者 的 击 球 动作 ， 也 很 难 注意 到 在 空间 
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尺寸 上 相对 较 小 的 板 球 。 在 计算 机 视觉 的 相关 研 
究 中 ， 有 研究 者 基于 刺激 物 - 刺 激 物 之 间 的 相互 
关系 对 于 彼此 识别 的 易 化 , 提出 计算 机 模型 以 解 
释 场景 中 物体 的 识别 (Yao & Fei-Fei, 2010)。 


4 动作 意图 识别 及 相关 计算 机 模型 构建 


在 动作 意图 的 研究 中 ,意图 之 类 的 心理 学 概 
念 一 般 都 是 很 难 直 接 测定 的 ， 因 此 需要 通过 对 可 
观测 的 其 他 指标 的 测量 与 识别 ， 从 而 实现 对 动作 
意图 的 识别 。 不 同 研究 者 采用 不 同 指标 作为 中 介 
对 动作 意图 进行 研究 。 

4.1 动作 意图 识别 的 指标 及 原则 

许多 研究 者 采用 动作 发 生 时 伴随 的 生物 指标 
作为 中 介 。 如 , Carpenter, Akhtar 和 Tomasello (1998) 
在 对 婴儿 模仿 动作 的 隐 含 意图 进行 研究 时 , 使 用 情 
感 声音 和 面部 证 据 作为 中 介 ; Jang, Lee, Mallipeddi, 
Kwak 和 Lee (2013) 在 特定 行为 情景 中 ， 对 行为 者 
基于 某 种 任务 的 动作 和 无 特定 任务 的 动作 进行 研 


Sot 


(Bonchek-Dokow & Kaminka, 2014). 

除了 对 影响 动作 意图 测量 的 各 个 因素 的 研究 
之 外 , 也 有 研究 者 对 动作 意图 识别 过 程 中 各 个 子 
过 程 的 检测 进行 区 分 。 研 究 者 认为 意图 识别 有 两 
个 核心 过 程 , 分别 为 意图 检测 和 意图 预测 。 这 两 
个 阶段 由 于 其 具体 目的 不 同 , 研究 侧重 点 也 有 所 
不 同 。 动 作 意图 检测 是 为 了 确定 意图 的 存在 ,这 
一 阶段 主要 分 析 观 察 到 的 动作 序列 的 每 一 点 ; 而 
动作 意图 预测 则 是 为 了 确定 意图 内 容 ， 在 这 一 阶 
段 需要 在 时 间 进 程 上 向 前 推进 ， 从 观察 到 的 行为 
导致 的 最 终 状 态 出 发 ， 推 论 行为 者 的 预期 目标 
(Bonchek-Dokow & Kaminka, 2014)。 
42 不同 水 平 信息 对 动作 意图 的 影响 
通过 中 介 因素 研究 动作 意图 识别 时 ,对 行为 
的 理解 往往 同时 涉及 低级 层次 和 高 级 层次 两 个 水 
平 。 其 中 低级 层次 主要 包括 人 体检 测 与 跟踪 、 动 
作 识 别 、 手 势 识别 等 ， 而 高 级 层次 主要 考虑 背景 
因素 的 影响 等 ( 徐 光 福 ， 曹 媛 媛 ,2009)。 同 时 ， 还 


究 时 ， 使 用 注视 点 数目 、 注 视 时 长 、 瞳 孔 大 小 变 
化 、 瞳 孔 大 小 变化 梯度 、 妈 眼 变 化 等 眼 动 指 标 试 
图 考察 并 研究 行为 者 的 动作 意图 。 

此 外 ,合理 动作 原则 (Principle of Rational 
Action) 也 是 动作 意图 研究 的 重要 理论 基础 (Watson,， 
2005)。 该 原则 认为 , 在 有 限制 的 情景 中 , 行为 表 
现 者 通过 可 得 到 的 最 合理 的 方法 实现 目标 状态 ， 
这 也 正 是 意向 性 动作 生效 的 方式 。 合 理 动 作 原则 
包含 三 个 成 分 :动作 目标 状态 和 情景 限制 ,Kir&ly, 
Jovanovic, Prinz, Aschersleben 和 Gergely (2003) 认 
为 合理 动作 原则 包含 两 个 前 提 假 定 。 第 一 个 假定 
认为 ,动作 的 基本 功能 是 带 来 客观 环境 的 特定 变 
化 ,这 表明 动作 结果 应 该 包括 环境 状态 的 明显 变 
化 , 在 此 重点 强调 了 三 个 成 分 中 的 “目标 状态 ”。 第 
二 个 假定 则 认为 ,在 情景 限制 下 主体 会 利用 其 可 
以 获得 的 最 有 效 方 法 。 该 假定 强调 情景 限制 改变 
时 ,主体 为 了 高 效 地 实现 目标 会 采用 不 同 的 动 
作 。 这 一 假定 更 加 重视 三 个 成 分 中 的 “动作 ”和 “ 情 
景 限制 "。 也 就 是 说 , 使 用 合理 动作 原则 帮助 人 们 
进行 意图 识别 和 检测 是 基于 这 样 的 推论 : 如 果 动 
作 可 以 体现 主体 意图 , 那么 对 主体 在 限制 情景 
下 动作 及 其 带 来 的 现实 状态 改变 的 察觉 ， 可 以 帮 
助人 们 确认 动作 的 隐 含 意图 。 已 有 研究 证 实 动作 
合理 性 在 意图 识别 上 的 确 是 有 效 的 参考 指标 


需要 考虑 背景 -刺激 物 关 系 及 刺激 物 - 刺 激 物 关系 
对 于 动作 意图 识别 的 影响 。 背景- 刺激 物 关 系 常常 
通过 自 上 而 下 的 知识 经 验 影 响 动 作 意 图 识别 ; 换 
Amz, 人 们 首先 需要 有 关于 动作 物理 特征 (包括 动 
作物 理 特征 和 动作 的 序列 性 信息 ) 和 语义 特征 ( 包 
括 场景 与 动作 的 匹配 性 问题 ) 的 知识 经 验 ， 随 后 根 
据 知识 经 验 及 所 观察 到 的 信息 来 推论 或 识别 动作 
的 隐 含 意图 。 另 外 ， 刺 激 物 - 刺 激 物 关系 对 动作 意 
图 识别 的 影响 也 受到 自 上 而 下 的 知识 经 验 的 影 
响 。 刺 激 物 与 刺激 物 之 间 联 系 的 构建 一 般 都 是 与 
人 们 已 有 的 知识 系统 息息相关 的 。 但 是 , 无 论 是 
背景 -刺激 物 关 系 所 依赖 的 物理 特征 ,还 是 刺激 
物 -刺激 物 关 系 中 刺激 物 的 各 种 物理 特征 ,都 是 
直接 通过 自 下 而 上 的 识别 过 程 得 到 的 。 这 与 计算 
机 识别 的 方式 是 一 致 的 。 
4.3 动作 意图 识别 的 计算 机 模型 

近年 来 ， 如何 利用 背景 信息 促进 视觉 识别 不 
仅 引 起 了 场景 知觉 领域 研究 者 的 关注 ， 而 且 也 成 
为 机 器 视觉 (computer vision) 人 研究 的 一 个 重要 内 
容 。 研 究 者 发 现 , 背景 信息 可 以 用 于 动作 分 类 
(Marszalek, Laptev, & Schmid, 2009) 、 场 景 及 其 包 
含 的 刺激 物 的 识别 (Divvala， Hoiem, Hays, & Efros, 
2009; Rabinovich, Vedaldi, Galleguillos, Wiewiora, 
& Belongie, 2007) 等 。 然 而 ， 对 于 复杂 场景 中 的 动 
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ERA, 仍然 没有 非常 有 效 的 方法 予以 识别 。 那 
L, 能 不 能 基于 合理 动作 原则 ,以 及 场景 不 同 水 
平 的 信息 ,对 场景 中 的 动作 意图 进行 训练 学 习 并 
计算 模拟 呢 ? 

Yao 和 Fei-Fei (2010) 在 前 人 研究 的 基础 上 ， 
提出 了 动作 意图 的 计算 机 识别 模型 。 该 模型 试图 
在 刺激 物 觉察 和 动作 姿势 估计 之 间 建 立 联 系 , 并 
假设 共同 背景 (mutual contexts) 对 于 二 者 之 间 关 系 
的 理解 具有 重要 的 影响 作用 ,并 且 可 以 促进 动作 
姿势 的 估计 以 及 刺激 物 的 觉察 。 在 真实 的 生活 场 
景 中 ,每 一 个 具体 的 人 - 物 互动 (human-object 
interaction，HOI) 活 动 都 是 具有 特殊 性 的 ， 都 是 不 
同 于 其 它 任 何 活动 的 ,因此 , Yao 和 Fei-Fei 所 建立 的 
实际 上 是 一 个 将 HOI 活动 场景 分 解 为 活动 类 别 、 刺 
激 物 对 象 和 身体 姿势 的 分 层 随机 场 (hierarchical 
random field) 模 型 。 其 中 身体 姿势 又 可 以 分 解 成 身 
体 的 不 同 部 位 ， 而 每 一 个 身体 部 位 和 刺激 物 对 象 
则 可 以 表示 为 相应 的 视觉 特征 ， 其 他 洪 在 变量 则 
可 以 通过 机 器 训练 学 习 获 得 。 

Yao 和 Fei-Fei (2012) 在 之 后 的 研究 中 发 现 ， 
该 模型 可 以 用 于 检测 图 像 中 人 的 身体 姿势 以 及 与 
其 有 交互 作用 的 对 象 ,并且 发 现 利用 人 体 动 作 姿 
势 更 有 利于 促进 相关 刺激 物 的 识别 ,其 检测 性 能 : 
著 优 于 词汇 袋 的 方法 ,也 略 优 于 Gupta, Kembhavi 
和 Davis (2009) 提 出 的 基于 背景 场景 环境 进行 检 
测 的 方法 。 更 重要 的 是 ， 该 模型 的 应 用 将 “刺激 物 
是 什么 ”的 识别 转向 “刺激 物 是 用 来 做 什么 ”的 识别 
(Koppula, Gupta, & Saxena，2013)， 这 对 于 真实 场 
景 中 刺激 物 识别 的 研究 而 言 具 有 重要 的 引导 作用 。 


5 小 结 与 展望 


20 t2 30 FRAR, 场景 及 场景 中 刺激 物 的 
识别 始终 是 研究 者 关注 的 核心 理论 问题 之 一 。 然 
而 , 与 自然 场景 不 同 ,社会 场景 中 人 的 注视 方向 、 
动作 行为 等 都 影响 着 观察 者 的 信息 加 工 、 行 为 决 
策 等 (Kingstone, Smilek, Ristic, Friesen, & Eastwood, 
2003; Gibson & Kingstone, 2006); 而 动作 意图 的 
识别 与 检测 也 已 成 为 社会 场景 知觉 及 其 语义 获得 
的 主要 研究 内 容 。 在 未 来 的 相关 研究 中 , 个 体 动 
作 意 图 识别 能 力 的 差异 性 及 其 发 展 、 真 实 场景 中 
动作 意图 识别 的 文化 差异 、 机 器 视觉 研究 的 优化 
以 及 计算 机 模型 的 修正 等 可 能 是 该 领域 未 来 研究 


的 重要 方向 。 
51 个 体 动作 意图 识别 能 力 的 差异 性 及 其 发 展 
有 研究 者 认为 动作 意图 识别 是 一 种 认 知 他 人 
计划 、 目 的 的 能 力 (Sukthankar et al., 2014)。 从 这 
个 角度 而 言 ， 动 作 意 图 识别 作为 一 种 个 体能 
不 同 个 体 由 于 其 生活 环境 、 知 识 经 验 等 的 差异 ， 
识别 他 人 动作 意图 的 能 力也 可 能 存在 着 不 同 。 因 
此 ， 对 动作 意图 识别 能 力 个 体 差 异 的 研究 ， 可 能 
是 未 来 研究 中 十 分 重要 的 方向 。 基 于 此 ， 从 能 
发 展 的 角度 考虑 这 种 差异 ， 与 年 龄 相关 的 信息 加 
工 能 力 差异 是 否 对 动作 意图 识别 能 力 的 差异 有 所 
贡献 ? 动作 意图 识别 能 力 的 发 展 是 阶段 性 的 或 者 
连续 性 的 ， 相 关 问 题 的 探讨 有 助 于 人 们 在 儿童 发 
展 的 适当 阶段 , 通过 适当 的 引导 教育 , 促进 他 们 
动作 意图 识别 能 力 的 发 展 。 
5.2 ”真实 场景 中 动作 意图 识别 的 文化 差异 
场景 作为 一 种 真实 环境 信息 ， 可 以 作为 信息 
载体 , 为 人 们 提供 各 种 信息 ; 同时 , 场景 提供 的 
信息 对 不 同文 化 背景 下 的 个 体 又 具有 不 同 的 心理 
含义 。 如 ， 西 方 饮 食 文化 与 中 国 饮食 文化 背景 
的 个 体 对 于 “使 用 筷子 为 他 人 夹 菜 ”这 一 行为 会 得 
到 不 同 的 意图 推论 。 因 此 ， 对 于 真实 场景 中 人 物 
的 动作 意图 的 识别 , 除了 个 体 差 异 之 外 ,也 可 能 
存在 着 深刻 的 文化 差异 。 在 全 球 化 的 背景 下 , 不 
同文 化 之 间 的 交流 愈加 频繁 , 基于 场景 中 人 们 的 
动作 考察 意图 识别 的 文化 差异 具有 重要 的 现实 意 
义 。 诸 如 在 怎样 的 场景 下 动作 意图 识别 具有 人 类 
的 普遍 性 ， 而 在 怎样 的 场景 下 动作 意图 又 具有 明 
显 的 文化 差异 ; 动作 意图 识别 过 程 中 的 文化 差异 
是 由 于 个 体 人 的 原因 ， 还 是 文化 环境 的 原因 等 问 
题 ， 仍 然 需要 研究 者 进一步 探讨 。 
5.3 ”机 器 视觉 研究 的 优化 以 及 计算 机 模型 的 修正 
在 机 器 视觉 的 研究 中 , 动作 意图 识别 也 是 一 
个 应 用 广泛 的 课题 。 例 如 , 在 智能 监控 领域 使 用 
智能 化 的 视频 监控 手段 并 使 用 计算 机 帮助 人 类 进 
行 分 析 和 监控 , 可 以 有 效 避 免 人 工 监控 中 存在 的 
效率 低 、 耗 费 大 ,以 及 可 能 有 遗漏 的 安全 隐患 的 
HAHAH, KIE, RXZ, ARKH, 2007). 此 外 ， 
基于 机 器 视觉 的 人 体 运动 分 析 研 究 可 以 通过 提取 
运动 员 关节 位 置 、 角 度 、 速 度 等 信息 ， 并 通过 对 
这 些 数据 信息 的 分 析 和 处 理 ， 指 导 下 一 步 的 训练 
( 黎 洪 松 ， 李 达 ，2009)。 值 得 注意 的 是 ， 机 器 视觉 
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POSEER ENE E EANA 的 研 
究 基础 之 上 的 , 因此 ， 从 认 知 神经 科学 的 角度 对 
动作 意图 识别 的 深入 研究 (Wang et al., 2010; Wang, 
Zheng, Lin, Wu, & Shen, 2011)， 以 及 对 动作 意图 
识别 过 程 中 的 内 在 心理 机 制 的 探索 (Meltzoff 2007), 
对 于 推进 机 器 视觉 动作 意图 识别 能 力 的 优化 ， 以 
及 计算 机 模型 的 修正 都 是 非常 必要 的 。 
除 此 之 外 , 场景 背景 对 动作 意图 识别 并 不 总 
是 发 挥 正 性 作用 。 如 果 是 嘲 杂 或 混乱 的 情景 ， 可 
能 对 隐 含 意图 的 识别 产生 负面 影响 (Klaser, Marszek, 
Laptev, & Schmid, 2010); 而 且 , 一 个 场景 可 能 
括 不 同 的 动作 ， 如 果 不 能 提供 有 用 的 信息 来 区 分 
这 些 动作 ， 对 于 识别 具有 隐 含 意图 的 动作 行为 也 


有 负面 影响 (Ziaeefard & Bergevin，2015)。 因 此 ， 
从 场景 背景 可 能 产生 影响 的 性 质 角 度 出 发 ， 探 索 
真实 情景 中 动作 意图 识别 也 是 有 必要 的 。 
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Recognition of action and intention in real-world scene perception 


KANG Tinghu; XUE Xi 
(Visual Cognition Lab, School of Psychology, Northwest Normal University, Lanzhou 730070, China) 


Abstract: A social scene plays a crucial part in the real physical world that people live in. In social scene 
perception studies, recognition of actions and associated intentions can be influenced not only by the 
background information of the scene, but can also be related to the object of an action. Therefore, 
researchers could follow the relationships between the background and an object, or among various objects 
for analyzing the mechanism of action recognition. However, to detect and recognize an action and its 
associated intention, researchers could also employ semantics restriction and physical baffle of scene, and 
incorporate the principle of rational action for studying the biological signs following an action. In the field 
of machine vision, new research is emerging on models of computer recognition that are based on 
human-object interaction. In the future, researchers can consider the development of action and intention 
identification capacity, and can study the differences among individuals of various cultures for improving 
the studies conducted in this field of research. 


Key words: social scene; action and intention; scene perception; model of computer recognition. 


